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О чем поговорим 


е MLOps 101: что, зачем и как 
е Почему данные важнее, чем мы думали 


е Инструменты и примеры решений 


С) Provectus (ні) da абі 


Весна?! 


Провектус -- профессионалы в сфере машинного 
обучения и искусственного интеллекта 
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Основана в 2010 520 сотрудникови Офисы в США, Работаем как со 
Главный офис в Раіо растем Канаде, Европе и стартапами, таки с 
Alto Латинской Америке корпорациями 
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Вопрос к аудитории 


Кто вы в компании? 
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Data Scientist / Аналитик 
МІ-Инженер 
Оаїа-Инженер 
ОА-Специалист 
ОеуОр5-Инженер 


Менеджер 
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MLOps — практически ДевОпс, Ho сложнее 


DevOps MLOps 


Методология разработки ПО и взаймодействия 
инженеров различных специальностей 


Методология разработки ПО и взаимодействия 
инженеров различных специальностей 


Уже выделена отдельная профессия — DevOps- 
инженер 


Есть ли специальная роль для того, кто этим 
занимается? 


Относительно простой и прямолинейный 
процесс 


Более сложный многокомпонентный процесс с 
большим количеством участников 
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Входы MLOps 


Model Code 


ML Pipeline Code 


Infrastructure as 
Code 


Versioned 
Dataset 
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Kon модели, препроцессинга, инференса 


Код пайплайна для оркестрации процесса 
обучения 


Код инфраструктуры, конфигурация 
платформы 


Данные 
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Итерация MLOps 


Versioned Dataset ML Pipeline Code 
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МЕОр$-пайплайн 
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Feedback Loop for Production Data 
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Профессия MLOps 
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Вопрос к аудитории 


Самое главное в решении МІ- 


проблемы — это выбрать удобный 
фреймворк и построить 
правильную модель. Так? 
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Данные 


е Качество данных 
е Прозрачность данных 


е Инструменты и примеры решений 
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Каскады данных 


Interacting with physical world brittleness 
Inadequate application-domain expertise 


Conflicting reward systems 
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* from "Everyone wants to do the model work, пої the data work": Data Cascades іп High-Stakes ДІ", 


N. Sambasivan et al., SIGCHI, ACM (2021) 
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“гот: “Тһе Bulletin of the Technical Committee on Data Engineering" 


http//sites.computer.org/debull/A21mar/issuel.htm 
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Эффект качественной очистки данных 


After data cleanup 0.91 


TFIDF, PoS, Stop Words 0.695 
Scikit Learn Default 0.69 


Python Hyperopt 0.73 


Sigmod2016 
Sanjay Krishnan (UC Berkeley) 


[mnn] YAHOO! И Jiannan Wang (Simon Fraser U.) 
https:;//sigmod2016.org/sigmod tutoriall.shtml 
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From Model-centric to Data-centric АІ 


Обнаружение 


Инспекция 
Солнечные панели " 
дефектов стали поверхностей 


85.05% | 


| Базовый показатель | 76.296 | 75.68% | 

| | 9 | 9 і 9 | 
Model-centric ! 3 +0.04% | "95 | 
| +16.9% +3.06% +0.4% 
Data-centric 
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GoCheck Kids 
Case Study 
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Плохие Шикарная Плохие 
данные модель © результаты 
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Вопрос к аудитории 


Как вы находите нужный датасет 


в своей организации? 


— 
. 


Спрашиваете коллег 
Используете М/їкі/документацию 
Реверс-инженерите пайплайны данных 


Скан регэкспами по всем файлам 


прим 


Используете Каталог данных 
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Управление данными: 


1. Данные разбросаны по разным системам хранения: 
RDMS, DWH, Data Lakes, Blobs 


2. He всегда очевидно, кто владеет данными 


3. Требования к данным и SLA этих данных — не 
определены 


4. 90% команд, работающих с данными, жалуются на 
проблемы с поиском и доступом к данным 


5. Такие команды тратят 25-50% времени только на поиск и 
оценку найденных данных 


6. Если и есть способ показать всю историю 
происхождения данных, то такая история не касается 
области МІ 
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ЕСЕН Self-hosted Search based | Lineage based Network based Federation | ОХ Personalization АІ Autowiring features ML First citizen Data QA Int PTA 


Roadmap | Roadmap 


Roadmap Roadmap 


Open Data Catalog 


No No 


No 


Amundsen (Lyft) Roadmap 


No 


Datahub (Linkedin) No Roadmap | Roadmap 


Marquez (WeWork) Roadmap No No No No 


No 


No 


No 


Magda No No 


Apache Atlas (Hortonworks) 
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Zeenea Data Catalog Prop No 

Google Cloud Data Catalog Cloud No 

Azure Data Catalog Cloud No | 
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Что делать? 
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Что же делать и как? 


е Тестировать данные 
е Завести себе хороший Каталог данных 


е Думатьоданных како самостоятельном 


продукте 
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Качество данных в МІ.Орв-пайплайне 


е 
git Model Code Orchestration: Idempotent Execution 
Production 
е Й Metrics 8; Alerts 
А ML Metrics Alerts Reports 
ML Pipeline Code 
— Model Artifacts 
Automated Pipeline Execution 
$ Infrastructure as р 
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Feature Store Versioned Dataset 


Feedback Loop for Production Data 
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= Feature Store 


Batch Quality 


Checkpoints 


Outlier Detector 
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Versioned 


Dataset Rules 
Validation 


Dataset 


Bias Checker 


Statistical 
Assertions 


ML Model 


Model 
Validation 


Model 
Test for Bias 


Model 
Security Test 


Deployed Model 


Regression 


Test 
Kubeflow 


Business 
Acceptance 


Traffic 
Replay 
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Что тестировать в данных 


Стандартные проверки данных: Продвинутые методы: 
е Дублирование е Проверкираспределения 
е Пропущенные значения е Критерий Колмогорова-Смирнова 
е Синтаксические ошибки е Критерий хи-квадрат 
е Ошибки форматирования е Автоматический поиск аномалий 
е Семантические ошибки е Автоматическая генерация 


ограничений 
е Целостность 
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MeHee абстрактный пример Data ОА 


Streaming Data Quality Analyzer 
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Down stream systems 
DELTA LAKE 
AWS Kinesis Streaming Data 
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Data Quality Checks Data Quality Metrics Daily/ Hourly Quality Metrics 
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Чем тестировать 


е Deequ 


https://github.com/awslabs/deequ 


е Great Expectations 


https://greatexpectations.io 


e Tensorflow Data Validation 


https://www.tensorflow.orda/tfx/data validation/get started 


e DBT 


https://blog.getdbt.com/data-testing-framewor 
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Где искать 


е Data Mesh — отдельные каталоги данных 
отдельных продуктов 

е Федерация каталогов и централизованный 
каталог 

е Все(!) метаданные в одном месте 
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Спецификация Open Data Discovery 


Before ODD Spec 


Data Sources 


ETL Tools Warehouses 
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Amundsen DataHub Any other 


Data Catalogs 


Ф Provectus 


Feature Stores 
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With ODD Spec 


Data Sources 


ETL Tools МІ Pipelines Warehouses Data Quality 


| 


— ц 


Amundsen DataHub Any other 


Data Catalogs 
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Any Data Catalog 


ODD Adapter API 


Any Data Catalog 


ODD Adapter API 
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ODD Ingestion API Puller 
ODD Ingestion API Puller 
| ) 
Kubeflow AWS Glue 
Adapter | Adapter 
ODD Adapter API 


Any data sources 


Airflow Kubeflow AWS Glue 
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Каталог данных Open Data Discovery 


1. 


2, 


Реализует Open Data О!5соуегу-спецификацию 
Глобальный федеративный каталог данных для поиска 
Строится с поддержкой МІ-сущностей, Data Quality, Data Lineage 


Составная архитектура для удовлетворения требований вашей 
стратегии работы с даннымии определенных бизнес-требований 


Open-source для более простой интеграции с существующими 
инструментами 
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МЕ-Сущности 


OpenDataDiscovery 


Filters 


Datasource 2 


Data Consumers type 2 
ML Model 


Dashboard 


Namespace 19 
Owner 78 


Tags 1K 
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Datasets 225 Transformers 17% 


Employee 


ML. model superstore master 


5: superstore деу 


Finance Department DHS 


sales employee staff finance employees 2020 


ML. model sales, overview 


Sources: sales, data-base. 2019 


Sales Civic Education Study Survey 


sales employee 


ML. model. employee reports 


Data Consumers 215 Quality Tests 23: 


9 Lena Mikheeva 


Data Inputs 1+ 


22 days ago 


27 Mar 2019 by Elizabeth Smith 


1 months ago 


27 Mar 2019 by Robert Vanstain 


1 year 7 months ago 


Качество 
данных 
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OpenDataDiscovery 


Quality Tests test superstore master 
test superstore master 


Overview Structure Lineage 


Dataset 3 superstore dev, sales short-term projects, finance. yearly reports 


Suit Url 1 master. dev. jebus cross. project 


Мати 1 


Finance Civic Education Study Survey 7 Mar 2019 Jeff Millborn 


Metadata 
CUSTOM Ф 2 


Database name 


Storage descriptor.input format 
$ Storage descriptor.output. format 


Storage descriptor.compressed 


$ Storage descriptor.number of buckets 


Storage descriptor.serde info.serializati... 


View all (21) 
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Dhatahaca пата 


avroshmavro 
org.apache.hadoop.hive.ql.io.avro.AvroContainerlnput 
Format 
org.apache.hadoop.hive.ql.io.avro.AvroContainerOutp 
utFormat 

false 
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org.apache.hadoop.hive.serde2.avro.AvroSerDe 
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policy agreement leagal department 
updated 
Test Report 
89% 


€ Passed 34 


е Failed 4 
— Broken 2 
41 
€ Skipped 1 
Unknown 0 
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Orchestration: Idempotent 
Execution 


Automated Pipeline Execution 


| $ Pipeline metadata Metadata 
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Versioned 
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Data Quality 


Model Artifacts 


Prediction 
Service 


Feedback Loop for Production Data 


Checks 
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Заключение 


е МІОрѕ — это не роль и не профессия, это процесс 
е Качество данных решает 
е Способность найти качественные данные решает не меньше 


е Provectus участвует в решении последней проблемы 
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Dmitrii Evstiukhin 

Linkedin: linkedin.com/in/devstiukhin 
Telegram: @Myafk 

Email: devstiukhin(gprovectus.com 
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